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摘 要 : 非 数 值 化 特征 经 常 出 现在 数据 中 ， 对 其 有 效 编码 是 采用 机 器 学 习 模 型 解决 问题 的 关键 。 针 对 目前 被 广泛 使 
用 的 one-hot 编码 方法 的 编码 结果 具有 较 大 的 稀疏 性 ， 并 且 编 码 出 的 数值 仍然 没有 明确 的 物理 意义 等 问题 ， 提 出 一 
种 基于 条 件 概率 的 区 域 划分 编码 算法 CZT(conditional-probability-based zone transformation coding)。 该 方法 首先 对 特 
征 进行 条 件 概 率 计 算 ， 并 依据 条 件 概率 划分 特征 区 域 ， 榨 照 区 域内 的 联合 条 件 概率 进行 编码 ; 然后 将 CZT 编码 算法 
与 one-hot 算 法 进行 对 比分 析 , 从 理论 上 推导 并 证 明 CZT 编 码 对 特征 的 压缩 浴 至 少 为 每 个 特征 取 值 空间 的 平均 大 小 ， 
同时 证 明 经 过 CZT 编码 后 的 问题 具有 更 简单 的 优化 目标 形式 , 利于 设计 后 续 机 器 学 习 算 法 ; 最 后 通过 采用 相同 结构 
的 神经 网 络 进行 分 类 ， 在 titanic 数据 集 下 对 比 CZT 算法 和 one-hot 算法 编码 数据 后 对 分 类 器 性 能 的 影响 ， 结 果 表 明 
CZT 编码 的 数据 在 分 类 准确 率 和 稳定 性 均 有 提升 。 
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Abstract: Categorical features always exist in the dataset and coding them is a key issue for solving problems efficiently by 


; machine learning models. One-hot coding is a wide accepted method to convert the features into feature values, and 
< 十 however it attracts Sparse Space and meaningless value after coding. To improve the coding performance, a novel coding 
method based on conditional probability after dividing the features into zones, which is called CZT coding 


OO) (Conditional-probability-based Zone Transformation coding) , is designed. The CZT coding calculates the conditional 
! probability of each feature and then divides the features into several zones and finally coding the features in each zone. This 
paper mathematically proved that compared with the state-of-the-art method - one-hot coding, CZT coding reduces the code 


length by at least the mean of feature spaces and the issue switches into an easier one after CZT coding for the following 
machine learning model. Finally, using the same neuron network as the classifier, the performance of CZT coding and 
one-hot coding is compared by using the titanic dataset, and the result is that CZT coding makes the classifier performs 
better both on the accuracy and steadiness. 
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0 引言 情况 下 ，SVM 为 Lagrange 对 偶 乘 子 法 ， 相 应 的 分 类 平面 即 
全 为 数据 维度 空间 下 的 线性 模型 ， 模 型 参数 只 与 数据 维度 数量 
随 着 数据 存储 技术 的 发 展 ， 大 量 数据 被 存储 ， 人 工 智 能 相当， 即使 数据 再 多 ， 也 无 法 拓展 参数 形式 ， 分 类 器 只 取决 
技术 得 以 飞速 发 展 。 传 统 的 机 器 学 习 算 法 中 ， 模 型 的 参数 较 ” 于 少量 的 支持 向 量 ， 无 法 在 数据 增 大 的 过 程 中 对 数据 进行 利 
少 ,少量 数据 即 可 对 参数 进行 估计 , 对 大 数据 量 利用 率 较 低 ， 用 以 挖掘 更 多 数据 特征 .SVM 的 优势 是 可 以 在 数据 量 较 少 的 
在 算法 模型 选 定 后 ， 刻 画 数据 分 布 的 函数 形式 随 之 限定 ， 只 ”情况 下 ， 给 出 有 效 的 支持 向 量 用 于 分 类 。 
需要 根据 提供 的 数据 寻找 合理 的 函数 参数 。 而 深度 学 习 技 术 神经 网 络 由 边 连 接 相 应 节点 构成 ， 其 VC 维 
中 ， 由 链接 结构 的 千变万化 导致 模型 参数 可 以 迅速 增长 ， (vapnik-chervonenkis dimensiom) 中 是 节点 数 和 边 数 的 乘积 , 在 
加 了 神经 网 络 的 学 习 能 力 ， 使 得 深度 学 习 在 数据 较 大 时 仍然 有效 的 训练 学 习 算 法 前 提 下 ， 该 网 络 可 以 逼近 任何 
可 以 有 效 学 习 到 数据 的 特征 并 且 提 高 网 络 的 性 能 。 传 统 机 器 。 ”连续 的 函数 。 但 是 由 于 VC 维 高 ， 训 练 时 需要 的 数据 一 般 下 
学 习 算 法 和 深度 学 习 算 法 在 不 同 数据 量 下 的 性 能 对 比 中 示意 。 ”认为 是 10 倍 的 VC 维 , 大 数据 量 条 件 下 ,更 适用 于 使 用 深度 
图 如 图 1 所 示 。 神经 网 对 数据 进行 训练 和 学 习 以 刻画 和 描述 数据 特征 。 在 数 
和 专 统 的 机 器 学 习 技 术 中 ， 算 法 的 参数 较 少 ， 从 而 限制 了 据 增 多 的 情况 下 ， 深 度 学 习 仍 然 能 有 效 学 习 出 数据 特征 。 在 
算法 在 大 量 数 据 下 对 数据 的 利用 能 力 。 以 支持 向 量 机 ”很 多 实际 应 用 中 表明 ， 采 用 SVM 进行 分 类 器 设计 的 算法 ， 
(support vector machine, SVMD) 为 例 ， 在 考虑 一 般 的 核 函 数 的 如 果 改 成 深度 神经 网 络 ， 则 相应 的 算法 速度 、 性 能 等 方面 在 
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大 数据 条 件 下 都 将 有 所 提升 B51。 可 见 , 对 于 目前 数据 量 逐 渐 
增 大 的 趋势 下， 深度 学 习 能 够 更 好 地 进行 拓展 和 使 用 。 
深度 学 习 以 其 强大 的 函数 拟 合 能 力 和 学 习 能 力促 进 了 人 
工 智能 和 机 器 学 习 领 域 的 发 展 ， 数 据 量 的 增长 又 反作用 于 深 
度 学 习 ， 使 其 能 够 更 加 有 效 地 学 习 数 据 内 在 的 关系 ， 从 而 分 
析出 数据 的 潜在 价值 。 实 际 问题 中 ， 数 据 中 的 特征 经 常 是 非 
数值 化 的 ， 如 性 别 、 颜 色 、 语 言 、 文 字 四 等， 而 神经 网 络 需 
要 处 理 数值 化 的 输入 ， 对 这 一 类 非 数 值 化 特征 的 处 理 ， 有 
种 比较 常见 的 做 法 是 采用 one-hot 编码 或 是 词 嵌 入 方法 [9。 
然而 这 一 类 方法 会 引入 较 大 的 向 量 空间 见 余 ， 并 且 共 体 的 编 
码 数值 没有 明确 的 数值 意义 。 虽 然 深度 学 习 用 较 深 的 神经 网 
络 来 解决 特征 工程 的 问题 00， 期 望 通过 位 于 前 端的 几 层 神经 
元 对 数据 自动 进行 预 处 理 ， 以 达到 对 数据 进行 特征 变化 、 特 
征 提取 等 特征 工程 的 问题 ， 而 实际 中 训练 该 特征 工程 网 络 层 
需要 大 量 的 训练 数据 和 较 高 的 调 参数 技巧 ， 往 往 造 成 深度 神 
经 网 络 训练 时 间 过 长 ， 甚 至 数据 量 不 够 而 导致 无 法 得 到 好 的 
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模型 参数 ， 以 使 模型 更 好 地 适应 数据 的 过 程 5。 数 值 化 的 特 


征 一 般 也 未 必 能 直接 使 用 ， 例 


时 


数据 进行 归 


数据 之 间 对 数值 直接 相 加 不 具 


如 利用 身高 体重 进行 机 器 学 习 


身高 的 单位 一 般 为 厘米 而 体重 为 千克 ， 不 同 单位 量 纲 的 


化 操作 ， 即 对 数 


xX 
久 = 


有 任何 意义 ， 因 此 常用 的 是 对 
据 X 做 如 下 处 理 : 


— EX 


VDx 
在 经 过 减 去 均值 除 以 标准 


差 的 操作 后 ， 采 用 作为 输入 


训练 数据 ， 可 以 避免 量 纲 的 影响 ， 
进行 数学 操作 作为 机 器 学 习 的 训练 数据 。 然 而 实际 中 更 多 的 
时 候 获 得 的 是 非 数 值 化 的 特征 
有 明确 的 数值 意义 。 例 如 ， 对 于 颜色 这 一 特征 ， 假 设 特征 的 


取 值 空间 为 { 红 , 黄 , 蓝 } ， 则 不 能 


为 12,3 ,因为 这 
ij 编码 过 程 指定 各 个 特征 的 映 


训练 效果 00。 实 际 数据 集中 常 遇 到 取 值 广泛 的 非 数 值 化 属性 
的 情况 ， 例 如 ， 话 音 中 进行 通信 的 用 户 双 方 在 通话 网 络 规模 
较 大 时 用 户 数量 也 将 会 比较 庞大 ， 并 且 每 个 用 户 都 是 非 数 值 
化 的 取 值 ; 在 自然 语言 处 理 中 ， 每 个 单词 便 是 一 个 非 数 值 化 
取 值 ， 在 文字 量 巨 大 的 语言 中 ， 单 词 这 一 属性 的 取 值 空间 将 
非常 庞大 ; 网 络 协议 层 中 的 他 地 址 也 是 非 数 值 化 的 , 为 了 利 
用 IP 地址 这 一 属性 ， 也 需要 对 卫 地 址 进行 数值 化 编码 ， 某 
些 具 有 庞大 用 户 群 体 的 手机 应 用 中 ， 用 户 ID 较 多 且 是 非 数 


NSS 


之 后 的 机 器 学 习 模 型 所 利用 ， 
征 ， 是 在 编码 过 程 中 人 为 引入 


各 个 特征 之 间 的 数值 可 以 


车 


， 即 特征 的 各 种 取 值 之 间 不 具 


简单 地 认为 可 以 把 其 分 别 编码 


有 的 数值 是 有 数学 意义 的 , 即 数值 是 有 序 的 ， 


射 是 随机 的 。 编 码 后 的 实数 中 ， 


工 和 蓝 分 别 为 1 和 3， 其 差 值 比 红 和 黄 大 , 这 些 特征 很 可 能 被 


使 编码 不 具有 偏 序 性 ， 需 要 考 


1.2 one-ho 


非 数 值 化 的 特征 进行 编码 。 


t 编码 


而 实际 上 该 特征 并 没有 这 一 特 
了 这 一 额外 的 数值 特性 。 为 了 
虑 采用 one-hot 编码 对 这 一 类 


one-hot 编码 又 被 译 为 独 热 码 或 一 位 有 效 码 ， 也 缩写 成 
OHC 编码 ， 其 编码 过 程 是 根据 特征 的 取 值 空间 , 设计 相应 的 


值 化 ， 为 了 挖掘 用 户 的 规律 习惯 等 信息 ， 需 要 对 ID 进行 数 
值 化 便于 后 续 机 器 学 习 算 法 进行 分 析 等 场景 。 如 果 采 用 
one-hot 编码 对 上 述 列举 的 情况 进行 编码 , 则 会 导致 编码 结果 
是 一 个 较为 稀疏 的 高 维 向 量 ， 日 每 一 个 向 量 中 只 用 一 位 为 
1 表示 特定 的 用 户 、 单 词 或 者 IP 地 址 等 。 本 文 针 对 上 面 一 类 
应 用 场景 中 的 非 数 值 化 特征 ， 提 出 一 种 基于 区 域 划分 的 条 件 
概率 编码 方法 一 一 CZT 算法 ， 以 解决 编码 空间 稀疏 以 及 编码 
数值 无 意义 的 问题 。 数 据 量 对 传统 机 器 学 习 和 深度 学 习性 能 
的 影响 如 图 1 所 示 。 
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1 数据 量 对 传统 机 器 学 习 和 深度 学 习性 能 的 影响 


Fig.1 Influence ofdataset amount on performance of traditional 


machine learning and deep learning 
1 ” 非 数 值 化 特征 及 编码 


非 数 值 化 特征 是 数据 集中 经 常 遇 到 的 一 类 属性 。 例 如 ， 
在 话音 网 络 中 ， 用 户 ID 虽然 被 存储 为 数字 ， 但 是 没有 明确 
的 数值 意义 ， 而 对 于 机 器 学 习 算法 ， 需 要 将 这 一 类 非 数 值 化 
特征 进行 编码 以 供 后 续 分 类 器 利用 。 目 前 广泛 接受 的 编码 方 
法 是 one-hot 编码 ， 即 采用 高 维 空间 内 的 具有 唯一 非 零 值 分 
的 高 维 向 量 作为 特征 的 编码 结果 。 本 章 介 绍 非 数 值 化 特征 
的 预 处 理 方式 。 
1 非 数 值 化 特征 
在 采用 机 器 学 习 算 法 进行 分 类 时 ， 默 认输 入 的 都 是 数值 
化 的 特征 ， 各 个 特征 通过 一 定 的 预 处 理 后 参与 模型 参数 的 计 
算 ， 机 器 学 习 就 是 通过 不 断 在 数据 上 进行 训练 从 而 不 断 调 优 


< 


冰峰 


编码 向 量 长 度 , 并 将 相应 的 特征 取 值 位 置 设置 为 1, 其 余 为 0 。 


one-hot 编码 实现 如 下 从 特征 到 编码 空间 的 映射 , 如 果 某 一 特 


征 的 取 值 空 


素 s 的 编码 结果 为 cS(6,…64)， 


one-hot 编码 
取 值 均 为 0 。 


Fig. 2 


针对 on 


司 是 5 ， 则 对 于 保 序 的 特征 空间 S ， 其 第 i 个 元 


全 =1,7=1,2,...,|S| o 任 可 时 候 ， 


总 


的 结果 中 只 有 一 位 有 效 位 并 且 取 值 为 1， 其 余 位 
对 非 数值 化 数据 先进 行 编码 ， 得 到 的 数值 输入 
到 分 类 器 进行 训练 和 分 类 ， 该 方法 的 流程 一 般 如 图 2 所 示 。 


数位 


特征 上 程 


如 one-hot 编码 


化 数据 


机 内 学 习 
如 SVM、DNN 等 


图 2 ”特征 工程 与 机 器 学 习 的 架构 关系 


Frame of feature engineering and machine learning 
2 条件 概率 区 域 编码 算法 一 一 CZT 
e-hot 编码 中 编码 结果 维度 高 ， 只 有 唯一 有 效 值 


而 使 输入 数 扩 


等 问题 ， 本 文 提出 基于 条 人 
CZT 算法 。 该 方法 首先 对 非 数 值 化 特征 进行 区 域 划分 ， 
划分 的 原则 是 条 件 概率 密度 具 


昌 转 换 成 稀疏 数据 并 且 有 效 位 数值 没有 物理 意义 


F 概率 密度 的 区 域 编 码 算法 


相同 的 取 值 空间 ， 然 后 针对 


划分 的 区 域 结 果 对 同一 区 域内 


进行 编码 。 


的 各 个 特征 按照 条 件 联合 概率 


2.1 非 数值 化 特征 的 数学 描述 
对 于 某 一 个 具体 的 分 类 问题 ， 假 设 问题 具有 并 个 标签 


l,l 这 里 的 。 表 示 元 素 * 


有 顺序 ,不妨 设 重点 关注 的 标 


签 为 1， 各 个 标签 对 应 的 样本 数据 个 数 分 别 为 ,mw…,m, ， 则 


样本 总 量 为 


人 
110 三 Dm 


£1 
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数据 集 特征 有 特征 1 特征 2,…, 特 征 K , 相应 


表 1 所 示 。 为 了 简化 表述 ， 所 考虑 数据 均 为 非 数 值 化 特征 ， 


各 维特 征 的 非 数 值 化 取 值 空间 分 别 为 S,S，…- 
值 空间 < 月 元 素 个 数 分 别 为 31 82， s ， 即 s 


的 数据 集结 构 如 


sx ,并 且 每 个 取 


引号 2 


可 记号 = 全 :一 玉 ji=L2… 天 ， 即 实际 数据 中 的 属性 ;的 取 


值 为 有.e5;。 虽 然 特 征 的 取 值 是 非 数 值 化 的 ， 


仍然 可 以 用 实 


数 刻 画 ， 不 妨 民 sR 。 例 如 ,投掷 立方 体 的 取 
的 六 个 平面 ， 但 仍然 可 以 将 其 标记 为 实数 ， 
数值 没有 实数 意义 ， 即 不 能 表明 标记 为 1 的 


值 空 间 是 立方 体 


ChinaXiv 合 作 期 刊 


录用 定稿 贺 亮 ， 等 : 非 数 值 化 特征 的 条 件 概 率 区 域 划分 (CZT) 编 码 方法 第 37 卷 第 5 期 


2.2 算法 原理 
首先 考虑 对 单个 特征 进行 编码 的 情况 ， 在 关注 标签 4 情 
况 下 ， 各 个 特征 的 概率 函数 为 


及 ( 双 ) 全 PrfX =x|), 
将 特征 X; 相 应 的 取 值 * 编 码 为 BQ) 。 
对 于 标签 4 下 的 两 个 特征 Xi,X;， 若 包 ( 刺 )=B( 刺 ) ， 此 
时 如 果 将 两 个 特征 编码 成 相同 的 数字 ， 容 易 造成 混淆 ， 因 此 
需要 采用 Bx (%, 凡 ) 联合 分 布 作为 两 个 特征 的 编码 。 如果 联 


合 分 布 仍然 与 某 个 特征 X 具有 相同 的 编码 结果 , 则 继续 采用 


只 是 这 时 的 具体 
平面 与 标记 为 6 


的 平面 有 任何 数值 上 1 与 6 的 关系 ， 对 这 样 


的 实验 求 期 望 也 


Px x, (5,x7, ) 作为 编码 , 直到 不 存在 编码 重复 的 结果 为 止 。 


是 没有 意义 的 ， 然 而 深度 学 习 方法 较 强 的 学 
习 到 这 一 类 关系 。 另 一 方面 ， 还 可 以 认为 下 
到 实数 阴 的 泛 函 ， 即 对 相应 特征 取 值 的 实数 


i , 取 值 为 =e5 记 为 事件 @，, 该 特征 的 全 部 事件 记 为 Q, ， 


习 能 力 可 能 会 学 
是 特征 事件 集合 


决 射 。 对 于 特征 


可 以 构造 随机 变量 X(w)=f ， 即 对 每 一 维特 征 i， 都 可 以 看 


成 是 一 个 随机 变量 X:9; 下 5;cR, 本 文 直接 用 


X; 表 示 特 征 i。 


对 于 非 数 值 化 特征 的 问题 ， 随 机 变量 是 离散 


问题 均 以 概率 形式 出 现 , 涉及 概率 密度 概念 时 ,如 无 特殊 说 明 ， 


的 ， 下 面 讨 论 的 


指 该 随机 变量 取 值 空间 稠密 但 可 以 无 一 致 连 纪 


近似 的 概率 密度 曲线 ,此 时 概率 密度 为 函数 微 元 。 


表 1 非 数 值 化 数据 集结 构 


Table 1 Structure of dataset with categorical features. 


特征 1 特征 2 特征 3 特征 KK 标签 
fii fo fa fi L 
fi fa fa fi L 
fm hn f fess L 
f 1 f 2mtl 及 3,m+l fim L 
i op Fig i b 
fi fn eis L, 
fi fn fa fe L, 


每 个 特征 的 概率 分 布 ， 其 取 值 空间 是 


离散 的 实数 ， 记 


V(X) 表示 特征 i 的 取 值 空间 。 定 义 属 性 i 和 jj 属于 同一 个 区 


域 (zone)， 如 果 对 于 两 个 特征 具有 相同 的 取 值 空间 ， 即 


V(Xi)=V(X)) 。 被 划分 到 同一 个 区 域内 的 各 
率 分 布 ， 称 为 这 个 区 域 的 概率 分 布 。 本 文 提 


个 特征 的 联合 概 
出 的 CZT 算法 依 


昌 


据 实 际 数据 集 的 特点 ， 找 到 使 划分 出 的 各 个 区 域 具 有 不 同 的 


概率 分 布 取 值 空间 作为 编码 依据 。 


卖 要 求 的 情况 下 ， 


这 里 具有 相同 的 编码 结果 的 单个 特征 ， 在 考虑 联合 分 布 后 整 
体 作 为 编码 的 若干 特征 ， 是 在 特征 列表 中 按照 一 个 区 域 考虑 
的 ， 因 此 被 称 为 划分 到 同一 个 区 域 中 进行 联合 编码 ， 如 图 3 
所 示 。 本 算法 也 是 基于 该 划分 区 域 的 思想 进行 编码 的 ， 因 此 
命名 为 CZT 算法 。 据 此 法 进行 编码 ,一 方面 ， 可 以 增加 对 非 
数值 化 特征 的 编码 能 力 ， 降 低 编码 结果 的 维度 ， 另 一 方面 ， 
可 以 降低 稀 疏 性 。 
图 中 将 在 标签 4 下 具有 相同 条 件 概 率 分 布 取 值 空间 的 特 
征 划分 为 同一 个 区 域 , 并 用 Z, 纠 ,…,Zi 表示 各 个 区 域 , 对 于 同 
区 域内 的 属性 ， 采 用 联合 条 件 概 率 密度 进行 编码 ， 从 而 
降低 编码 后 数据 的 维度 ， 并 使 编码 数值 具有 条 件 概 率 的 物理 
对 于 不 同 的 标签 {6&4} ， 存 在 m,n， 使 得 
RB ( 巩 ,)=Bo (i,) 时 ， 如 果 采 用 特征 编码 ， 则 两 个 标签 下 无 法 


区 分 各 个 样本 实际 的 不 同 。 此 时 ， 也 需要 考虑 结合 其 他 特征 
共同 编码 ， 即 进行 区 域 划分 。 然 而 与 上 一 种 情况 不 同 ， 下 二 
分 析 如 何 选择 参与 共同 编码 的 特征 。 


Z1 Z2 Z3 Lr-2 Lk-1 Zk 
生计 一直 一 
i | | 国 国 国 四 
四 
oe | | | | || | 


LU 


| 
| 
| 
I | | 


图 3 CZT 算法 区 域 (zone) 示 意图 
Fig.3 Schematic diagram of zone in CZT algorithm. 

首先 需要 引入 函数 距离 的 定义 : 对 连续 型 随机 变量 的 概 

率 密度 函数 f(x),A(x) ， 其 距离 按照 如 下 KL 散 度 (K-L 


divergence): 


OR OR ty 


对 离散 型 随机 变量 的 概率 分 布 p.(),p,(*) ,其 距离 定义 为 


Cn Tp Cg 人 人 


基于 如 上 定义 ， 选 择 X; 满 足 


X;=argmin L(P (xll, sb, ), Pe (x sb, )) 
和 
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即 与 重复 编码 一 致 的 概率 分 布 最 近 的 特征 划分 到 同一 区 域 进 ”依据 该 区 域 的 条 件 概率 分 布 进行 编码 ， 编 码 结果 使 得 各 个 区 
行 联合 编码 。 当 特征 较 多 时 ， 该 方法 需要 遍历 所 有 特征 以 找 。 域 具有 互 不 相同 的 取 值 空间 。 
到 与 当前 特征 概率 分 布 最 接近 的 一 个 ， 可 以 引入 一 个 距离 阔 算法 1 CZT 编码 算法 流程 


a 输入 :” 非 数值 化 特征 XX,XX,,…, Xk 的 m 个 样本 ; 
值 g, 当 某 个 % 与 X 的 概率 分 布 之 距离 小 于 该 阔 值 时 便 可 以 和 


基 合 编码 阔 值 9>0 。 

选 定 该 特征 作为 划分 到 同一 区 域 的 对 象 ， 进 行 联合 编码 ， 即 输出 : ”特征 的 数值 化 编码 矩阵 。 
3X, e{ XIL(P (Ash ), P(A, )) <0, for X, in [Xi,X,,...,Xxr]: 
将 Xj 与 X;, 划分 到 同一 个 区 域 。 如 果 69 选择 不 合理 ， 如 计算 Pe (xz ) 作为 和 的 编码 


选取 较 小 ， 上 面 的 集合 可 能 为 空 ， 但 经 过 各 个 距离 函数 的 遍 
历 计算 , 已 经 可 以 找到 距离 最 小 的 X, 作 为 区 域 划分 和 联合 概 
率 编码 的 特征 。 


= 


for X; in [Xi,X,,...,X,]: 


if Pe GL)=B, (oh) : 


若 找到 满足 上 述 条 件 的 % 后, 联合 编码 在 4.4. 下 仍然 相 将 (XX,) 划分 到 一 个 区 域 
同 ， 即 Bx (5,N lh, )= Pex, (5 加) ， 则 依 上 法 继续 寻找 X ， 计算 Pex (二 ,xz 已) 作为 (X;,X;) 的 编码 
直到 编码 不 同 。 下 证 明 ， 如 果 将 全 体 特征 均 选 为 同一 个 区 域 if 存在 X, 的 编码 相同 : 

加 继续 递归 划分 区 域 并 编码 
作为 联合 分 布 编码 ， 编 码 结果 针对 标签 上 上 相同 ， 则 此 时 的 和 
for X, in [Xi,X,,..., Xr]: 


标签 ,hh 不可分。 
for 71, in [4,b,..,b,]: 


当 所 有 天 个 特征 在 标签 ,4 下 属于 同一 个 区 域 ， 即 联合 
计算 PB (Xill,) 
分 布 相同 时 ， 记 充 4(X,,X,,.…X.)*， 相 应 随机 向 量 的 取 值 记 为 
for 1 in [42 人 ] : 
(n,n xk) 为 同一 个 区 域 ， 即 


if Ps (A)=P (hh) : 


P, (zh, )=P; (hh, ); 
(hh ) -Ph,) # 寻 找 恰当 的 特征 所 属 的 区 域 


给 定 样本 下 ， 该 样本 属于 这 两 个 标签 的 概率 之 比值 为 
Pi(hl) _ Pel )Pr{h) 人) 
Bb) Pl Pr(h} Pro, 


即 比值 为 固定 值 ， 而 这 两 个 标签 下 的 数据 量 在 训练 数据 下 不 


for X; in [X1,X,,..., Xx] : 


计算 存储 L(PBe ,17),Pe, (dl.,1)) 


变 ， 此 时 无 论 样本 3=(%,%,…,xx) 如 何 选取 ， 都 不 影响 样本 if CR (0), Bo (1)) <0 : 
条 件 下 两 个 标签 ,4 的 概率 分 布 比值 ， 因 此 无 法 对 这 两 个 标 将 (Xi,X;) 划分 到 一 个 区 域 


签 进 行 区 分 ， 说 明 数 据 在 这 两 个 标签 情况 下 不 可 分 ， 对 数据 


将 Pex (NW, XL, XX; ) 编码 
进行 编码 工作 也 无 法 区 分 这 两 类 数据 。 因 此 ， 如 果 数 据 是 可 0 


分 的 ，CZT 算法 编码 时 便 不 会 出 现 所 有 特征 都 划分 到 同一 个 break 

区 域内 的 情况 。 else: 

23 CZT 编码 算法 流程 本 加 求 argminC(R (l,l), Pe (l,l)) 
结合 上 面 的 算法 原理 ,给 出 CZT 算 法 流程 如 算法 1 所 示 。 


算法 流程 中 ， 第 一 个 for 循环 是 对 单个 关注 标签 下 的 非 数 值 
化 特征 进行 编码 ， 主 要 考虑 该 标签 下 某 些 特征 可 能 具有 相同 
的 编码 结果 , 需要 进一步 进行 区 域 划分 ,对 其 进行 联合 编码 。 
第 二 个 for 循环 主要 针对 不 同 标签 下 ， 存 在 同一 特征 编码 相 


将 (Xi,X;) 划分 到 一 个 区 域 


将 Poa (i, 内,4) 作为 (Xi,X)) 编码 


同 的 情况 ， 此 时 需要 进一步 选择 与 这 个 特征 的 概率 分 布 足够 if 存在 编码 相同 : 
接近 的 特征 划分 为 同一 个 区 域 并 联合 编码 。 流 程 中 使 用 了 继续 递归 寻找 区 域 并 编码 

for-break-else 语句 ,其 表示 的 含义 是 对 for 循环 里 面 的 内 容 ， ”2.4 CZT 编码 算法 复杂 度 分 析 

如 果 执行 了 break 语句 退出 for 循环 , 则 不 执行 else 语句 内 的 对 于 计算 不 同 标签 下 的 联合 概率 编码 时 ， 引 入 6 可 以 在 


操作 ， 如 果 for 循环 成 功 遍 历 了 所 有 操作 并 且 没 有 执行 break ”一 定 误差 范围 内 提前 跳出 联合 概率 计算 的 循环 ， 然 而 最 差 情 
语句 ， 则 跳出 循环 后 执行 else 内 的 操作 。 算 法 的 核心 功能 主 。” 况 下 需要 完全 遍历 所 有 已 经 计算 的 特征 , 因此 针对 不 同 标签 ， 
要 是 在 划分 数据 集 某 些 特征 为 若干 区 域 后 ， 对 区 域内 的 特征 。 ” 当 发 生 编 码 重复 时 , 计算 复杂 度 为 O(mK?), 这 里 的 0(°) 表示 
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高 阶 无 穷 大 渐 近 项 。 对 于 m 个 样本 ,需要 统计 K 个 特征 的 概 
率 分 布 , 基本 操作 的 复杂 度 即 为 0(mK) ,综合 两 者 分 析 结 果 ， 
CZT 编码 算法 时 间 复杂 度 为 0(m?Ki) ， 为 多 项 式 时 间 。 


3 ”CZT 编码 算法 性 能 分 析 


CZT 算法 对 特征 进行 编码 后 ， 编 码 的 空间 不 会 具有 很 高 
维度 ， 使 得 后 续 机 器 学 习 需 要 处 理 的 问题 得 到 简化 。 本 章 分 
别 从 CZT 算法 对 特征 空间 编码 后 与 one-hot 相 比 的 压缩 率 、 
后 续 机 器 学 习 算 法 待 解决 的 优化 问题 以 及 算法 的 准确 率 等 方 
看 对 CZT 算法 的 性 能 给 出 理论 推导 。 
3.1 特征 空间 压缩 率 
在 one-hot 编码 中 ， 每 种 非 数 值 化 特征 的 编码 长 度 是 由 
该 特征 的 取 值 空间 大 小 决定 的 ， 即 特征 i 的 编码 长 度 为 5， 


并 且 只 有 一 个 值 为 1, 其 余 为 0， 即 (cccjc e{0,1},27;=1， 
/j=l 


并 且 cj 的 数值 大 小 没有 上 有 具体 物理 意义 ， 只 是 代号 数值 化 。 从 
而 对 于 每 一 个 数据 ， 其 各 个 特征 的 编码 结果 为 
"> 


输入 矩阵 将 是 一 个 mxs 的 矩阵 ， 每 一 行 的 行 和 为 K 。 如 
果实 际 特征 取 值 较为 广泛 ， 特 征 取 值 空 间 大 ， 该 矩阵 将 会 是 
一 个 很 稀疏 的 矩阵 。 

采用 CZT 编码 时 , 如 果 每 一 维特 征 都 具有 能 区 分 的 编码 ， 
即 划分 出 的 各 个 区 域 只 包含 一 个 特征 ,不 需要 联合 概率 编码 ， 
此 时 每 一 维特 征 的 非 数 值 化 取 值 都 用 相应 的 条 件 概率 编码 ， 
对 此 只 需要 mxkK 的 输入 矩阵 。 若 存在 需要 联合 概率 编码 的 情 
况 ， 以 及 划分 出 的 区 域 中 存在 多 个 特征 ， 则 只 会 比 当前 的 输 
入 维度 更 小 ， 即 mxk(k<K) 的 矩阵 ， 和 矩阵 中 的 数据 都 是 非 零 
数值 ， 数 据 代表 着 各 个 特征 或 者 联合 特征 的 统计 概率 ， 具 有 

定 物理 意义 ， 方便 后 续 分 类 器 利用 该 数值 。 

对 比 CZT 编码 和 one-hot 编码 , 可 以 看 出 CZT 编码 的 改 
进 如 下 : a) 编 码 出 的 矩阵 维度 大 大 降低 ; bp) 编码 出 的 矩阵 数 
据 由 稀 跑 矩阵 变 为 非 稀 疏 和 矩阵 ; c) 和 矩阵 的 元 素数 值 有 具体 的 
含义 ， 不 再 是 符号 的 简单 数值 化 表达 。CZT 编码 算法 对 特征 
空间 的 压缩 率 为 


mxs_s Ds A 
mxk kk 天 
压缩 率 至 少 为 了 ， 即 经 过 CZT 编码 算法 后 ， 每 个 数据 的 


编码 结果 压缩 率 至 少 为 每 个 特征 取 值 空间 的 平均 大 小 。 
3.2 编码 数据 维度 降低 对 分 类 问题 的 简化 

经 过 one-hot 编码 的 数据 点 稀疏 分 布 在 高 维 空 间 内 ， 即 
分 布 在 * 维 空间 的 晶 格 内 , 这 里 的 唱 格 即 为 边 长 取 1 的 高 维 立 
方 体 ， 并 且 严 格 有 天 维 取 值 为 1， 而 经 过 CZT 编码 的 向 量 ， 
各 个 维度 含义 是 区 域 的 条 件 概率 ， 相 应 分 布 在 最 高 K 维 空间 
内 ， 并 且 在 空间 内 各 个 维度 取 值 在 (04] 之 内 取 值 。 
在 原始 系数 空间 内 , 晶 格 这 一 条 件 便 是 数据 的 内 在 联系 ， 
j 这 一 联系 对 于 分 类 器 分 类 意义 不 大 ， 对 应 之 前 提 过 的 
one-hot 编码 的 0 和 1 没有 具体 数值 意义 。 对 原始 进行 CZT 编 
码 后 的 空间 分 布 更 具有 条 件 概率 的 实际 意义 ， 并 且 取 值 几乎 
处 处 连续 。 原 始 数据 经 过 one-hot 编码 后 的 数据 为 CeR:， 
其 中 的 任意 一 个 元 素 ss{ol ，>p =K， 经 过 CZT 编码 后 的 
数据 为 SeR*cR* 。 对 于 one-hot 编码 ,没有 对 数据 进行 加 工 ， 
可 以 看 做 是 对 非 数值 化 数据 的 直接 语义 编码 , 即 CZT 编码 算 
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法 也 可 以 处 理 one-hot 编码 的 结果 ， 对 其 进行 区 域 划分 并 统 
计 条 件 概 率 作为 编码 结果 ， 因 此 存在 eR”*，5S= 了 (C)。 对 
于 一 个 分 类 问题 ， 可 以 看 成 在 一 定数 据 条 件 下 最 优化 一 定 指 
标的 问题 ， 即 


minL(D,C;F). 


这 里 的 优化 变量 即 为 分 类 器 需要 学 习 的 分 类 平面 , 用 DD 
表示 ， 数 据 集 也 可 以 是 CZT 算法 编码 过 的 数据 集 9 。 经 过 
CZT 编码 后 的 数据 取 值 空间 可 以 认为 是 (0.] 上 几乎 处 处 连续 
的 空间 , 而 one-hot 编码 则 是 离散 的 0-1 取 值 空间 。 采 用 CZT 
算法 编码 数据 使 后 续 机 器 学 习 算 法 待 解决 的 问题 的 复杂 度 相 
应 得 到 降低 。 
3.3 编码 结果 在 空间 分 布 的 稳定 性 
对 于 数据 集 X ， 采 用 one-hot 编码 得 到 的 编码 结果 中 ， 
每 一 维特 征 X 编码 成 一 个 长 度 为 的 一 维 向 量 ， 并 且 该 向 量 
只 有 一 个 元 素 为 1， 其 余 为 0 ， 因 此 方差 为 
DX, = EX? — EF2X, - - ~ 二 

如 果 采 用 CZT 编码 , 编码 的 结果 至 多 为 X 维 , 并且 向 量 
的 每 一 位 都 是 条 件 概率 ， 介 于 0~1 间 ， 根 据 CZT 编码 规则 ， 


相应 的 条 件 概率 和 为 1， 即 六 =1 。 相 应 的 方差 为 


_KD (Pi) KY- 
K? 


x, = BEX? — EB2X, 
kK? 


下 面 对 该 结果 进行 方差 分 析 ， 首 先 需 要 引入 如 下 引 理 ， 
对 于 一 系列 随机 变量 XXX ， 
0 时 方差 最 大 ， 当 各 个 X; 均 取 值 为 
均值 3X; 时， 方差 最 小 。 如 果 每 一 个 随机 变量 不 相等 ， 且 最 小 


相差 6 时 , 相应 的 取 法 类 似 , 即 令 前 4-1 个 随机 变量 分 别 从 0 
以 为 间距 取 值 ， 方 差 最 大 ， 令 所 有 随机 变量 以 为 间隔 取 


值 在 均值 x, 左右 时 ， 方 差 最 小 。 
极限 状态 下 ， 如 果 某 个 编码 的 条 件 概 率 接近 1， 其 他 接 


Xie[01] ， 且 X=1， 当 


X,=1 日 X X, = = Xl 


近 0 时， 上 面 的 方差 项 最 大 ， 相 应 上 确 界 为 
K-l 
sup DX = 


在 CZT 编码 中 ， 保 证 各 个 编码 结果 互 不 相等 ， 相 应 条 件 
为 ->s ， 此 时 相应 的 上 确 界 可 以 认为 在 有 K-1 个 编码 取 
值 分 别 为 ue2e.(K-2s ， 剩 余 一 个 编码 结果 关 
1-3(&-D(K-2)s 时 取 到 ， 相 应 的 方差 上 确 界 


sup DX; =O(K’)e? A 


方差 取 值 最 小 ， 对 应 各 个 编码 结果 在 均值 附近 取 值 。 编 


码 结果 的 均值 为 X -区 ， 则 令 各 个 式 在 均值 附近 以 = 为 间隔 


取 值 。 在 天 为 偶数 时 ， Ks2K。， 各 个 X; 取 值 为 


1 el € 1 2 
Ko —1)e——, Ko —2)8——,..., ， 
KK De KD-F 


1 2 1 € 
+ 一 ,..., 一 十 (Ko 一 1)g++ 一 ， 
K 2 天 (KD) 2 
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Se 所 示 。 
K 为 奇数 时 , KA2K。 +1, 各 个 X; 取 值 为 
ReLU ReLU ReLU ReLU sigmoid 
1 1 11 1 Wl = 时 和 
Koé,...,——€ +6,...,—+ Koé. 人 世人 4 办 

天 K K K na 

相应 方差 的 下 确 界 为 DN DO CS y 
K?+4 3 人 OD. + 


ee 偶数 维特 征 


inf DX, = 
天 ”一 1 


2 奇数 维特 征 


对 于 下 确 界 , CZT 编码 方法 相应 量 级 在 Te , 而 one-hot 


编码 为 二 ， 而 由 于 5>Kk ， 从 而 。 


_M0 .1 下 和 关 ， 
KR 直 时 两 算法 下 确 


界 相当 。 在 CZT 编码 过 程 中 , 可 以 
件 概 率 密度 作为 编码 结果 ， 因 此 = 


Ka 

结果 较 one-hot 编码 结果 的 数据 分 
离散 度 大 ， 利 于 后 面 的 分 类 器 对 数 
可 以 验证 , 经 过 CZT 编码 后 的 数据 
性 均 有 提升 。 


4 ”CZT 编码 效果 对 比 


理 的 数值 ， 至 少 保证 sy MO ， 此 时 相应 的 CZT 编码 的 方差 


控制 相差 较 大 程度 后 的 条 


输入 层 40 80 40 输出 层 
图 4 性 能 对 比 时 采用 的 神经 网 络 结构 示意 图 
Fig.4 Schematic diagram of neural network that is used in 


performance evaluation . 
网 络 的 输入 维度 即 为 经 过 编码 后 的 特征 维度 。 对 于 采用 
one-hot 编码 的 数据 , 由 于 每 一 个 非 数 值 特征 的 取 值 范围 广泛 ， 


在 实际 操作 时 可 以 取 到 合 


会 产生 稀 玻 高 维 的 输入 向 量 ， 而 采用 CZT 编码 的 数据 ， 该 输 
入 维度 可 以 显著 下 降 ， 同 时 向 量 中 的 每 个 分 量 的 具体 数值 表 


布 形 式 方差 更 大 ， 即 类 间 
据 进行 分 类 ， 后 面 的 实验 
用 于 分 类 时 准确 率 和 稳定 


为 了 对 比分 析 CZT 算法 的 性 能 , 对 titanic 数据 集 分 别 在 


CZT 算法 和 one-hot 编码 下 ， 使 / 


相同 的 神经 网 络 结构 对 


Titanic 生还 人 员 进 行 预 测 ， 然 后 针 
提出 的 CZT 编码 算法 的 性 能 优势 。 
4.1 数据 集 简介 


本 文采 用 titanic 数据 集中 作为 实验 对 象 ， 因 为 该 数据 身 


的 非 数 值 化 特征 比较 多 ， 并 且 结构 
较 透 彻 ， 易 于 与 传统 编码 方法 对 比 


对 实验 结果 对 比分 析 本 文 


uy 


简单 ， 对 其 分 类 的 研究 比 
性 能 。 该 数据 集 根 据 乘客 


的 基本 信息 ， 预 测 Titanic 遇难 时 的 生还 情况 。 数 据 集 中 包括 
乘客 的 ID 号 、 舱 位 等 级 、 性 别 、 年 龄 、 上 船 地 点 、 船 舱 号 、 


船 票 价位 等 信息 ， 其 中 很 多 均 是 非 
部 分 缺失 数据 信息 ， 需 要 采用 众 数 


7 EC 


数值 化 特征 。 数 据 集 具 有 
或 均值 进行 补 全 。 使 用 该 


数据 集 对 每 名 顾客 的 生存 概率 进行 


预测 ， 一 方面 可 以 看 成 是 


对 概率 进行 logistic 回归 , 另 一 方 


鲁 也 是 对 是 否 存 活 这 一 标签 


的 二 分 类 问题 。 本 文 将 采用 神经 网 


络 进行 分 类 ， 对 该 数据 身 


A 


输出 层 只 需要 一 个 简单 的 神经 元 即 
分 类 问题 。 
4.2 分 类 器 设计 

为 了 探究 CZT 算法 的 性 能 , 尽 
而 造成 的 分 类 错误 情况 或 对 数据 的 
文采 用 具有 较 强 学 习 能 力 的 神经 网 
用 五 层 神经 网 络 ， 该 网 络 较 传统 神 


可 实现 相应 的 回归 或 是 


量 降低 由 分 类 器 自身 影响 
分 类 能 力 不 足 的 问题 ， 本 
络 作为 分 类 器 。 分 类 器 采 
经 网 络 的 三 层 结构 有 所 力 


深 ,但 仍 不 足以 称 之 为 深度 神经 网 


经 网 络 。 同 时 ， 经 过 实验 验证 ,五 


络 ， 因 此 此 处 仅 称 其 为 神 
神经 网 络 针对 该 数据 集 


已 经 具备 较 好 的 分 类 能 力 。 具 有 五 


屋 的 神经 网 络 仍然 需要 反 


向 传播 算法 修正 神经 权 向 量 时 的 梯 
络 的 激活 函数 采用 ReLU 函数 04， 


ReLU(x)= max {0,x} 


其 在 正 半 轴 导数 为 1， 负 半 轴 


度 弥 散 的 问题 ， 前 四 层 网 
该 函数 具有 如 下 激活 形式 


导数 为 0 ， 可 以 避免 梯度 


弥散 问题 ， 并 已 经 在 深度 神经 网 络 
的 是 二 值 问题 ， 采 用 sigmoid 函数 
则 对 应 的 输出 值 直接 即 为 所 需 的 分 


中 被 广泛 采用 。 由 于 预测 
作为 输出 层 的 激活 函数 ， 
类 结果 ， 网 络 结构 如 图 4 


示 该 特征 对 应 的 条 件 概率 值 ， 数 值 之 间 也 具有 明确 的 物理 意 
义 ， 有 利于 后 层 神经 网 络 提取 相应 的 特征 信息 。 为 了 对 比 
one-hot 编码 和 CZT 编码 算法 性 能 ， 采 用 的 神经 网 络 除了 输 
入 层 神 经 元 个 数 需要 匹配 编码 后 数据 的 维度 ， 其 余 层 次 结构 
均 相 同 。 
4.3 算法 性 能 
分 别 在 原始 titanic 数据 集 上 进行 one-hot 和 CZT 编码 ， 

编码 出 的 数据 维度 分 别 为 196 维 和 8 维 , 对 应 的 神经 网 络 的 输 
入 层 也 分 别 是 196 个 和 8 个 神经 元 。 对 数据 集 进行 随机 划分 ， 
采用 10 折 交 叉 检 验 (10-fold validation), 重复 10、500 和 1 000 
次 的 实验 结果 如 表 2 所 示 ， 表 中 的 OHC 表示 one-hot 编码 。 

表 2 CZT 编码 算法 性 能 对 比 

Table 2 Performance evaluation of CZT and 
one-hot coding(OHC) algorithm. 


编码 方式 重复 次 数 网 络 规模 Ce 
平均 方差 最 小 最 大 
OHC 10 356 3.670 4.827 2.694 4.938 
CZT 10 168 2.402 1.531 1.796 3.143 
OHC 500 356 5.084 2.411 2.357 10.44 
CZT 500 168 4.400 1.183 0.337 9.764 


OHC 1000 356 3.614 1.111 1.684 10.10 

CZT 1000 168 2.929 0.892 1.571 9.764 

从 表 中 可 以 看 出 : a) OHC 算法 编码 出 的 数据 维度 高 ， 
导致 后 端 需要 采用 更 加 复杂 的 网 络 输入 层 结构 对 其 进行 学 习 ; 
b) CZT 算法 错误 率 下 降 ， 错 误 率 方差 降低 ， 说 明 编 码 出 的 
特征 更 有 利于 神经 网 络 训练 学 习 ， 得 到 的 神经 网 络 的 性 能 更 
加 稳定 。 图 5 是 分 别 在 10 、250 、750 和 次 实验 的 结果 用 提 
琴 图 展示 的 效果 。 


coding method 


10 250 500 750 1000 
repeat time 


图 5 重复 实验 不 同 次 数 对 应 错误 率 的 提琴 图 


Fig.5 Violin figure of error rates in various experiments 
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图 中 横 轴 是 重复 的 实验 次 数 ， 纵 轴 是 对 应 算法 的 分 类 错 
误 率 ， 提 琴 图 中 每 个 提琴 型 左 侧 蓝 色 表示 采用 one-hot 编码 
重复 实验 后 整个 实验 的 错误 率 分 布 情况 ,， 右 侧 绿 色 对 应 CZT 
编码 算法 。 重复 实验 较 少时 ， 如 10~ 250 次 ， 可 以 看 出 CZT 
编码 算法 的 错误 率 方差 较 低 。 当 重复 到 一 定 情况 时 ， 编 码 方 
式 对 算法 错误 率 的 影响 逐渐 稳定 ， 两 种 编码 算法 对 分 类 器 错 
误 率 分 布 影响 基本 稳定 。 可 以 从 错误 率 的 分 布 提琴 图 中 看 出 ， 


A 


CZT 算法 的 错误 率 较 one-hot 编码 对 数据 处 理 后 分 类 器 错误 
率 下 降 。 


5 ”结束 语 


针对 one-hot 等 编码 方式 处 理 的 数据 ， 其 结果 具有 高 维 
度 、 稀 疏 性 等 问题 。 CZT 编码 算法 根据 特征 的 条 件 概率 特 
点 对 数据 各 维特 征 进行 区 域 划分 ， 并 将 同一 区 域 的 属性 共同 
编码 ， 编 码 出 的 数据 维度 低 ， 同 时 相应 的 取 值 代表 该 特征 区 
域 的 条 件 概率 ， 具 有 一 定 的 物理 意义 ， 为 后 续 的 分 类 器 分 类 
提供 了 较 好 的 数据 预 处 理 结 果 。 经 过 证 明 ，CZT 编码 算法 能 
够 至 少 压 缩 各 维特 征 取 值 空间 大 小 的 平均 值 倍 数 的 编码 长 度 
并 且 实 验 结果 表明 ，CZT 编码 算法 使 分 类 器 分 类 错误 率 下 降 
分 类 结果 的 稳定 性 提升 。 


参考 文献 : 


[1] Yann L, Yoshua B, Geoffrey H. Deep learning [J]. Nature, 2015, 521 
(7553): 436. 


[2] Xu Jianhua. Designing nonlinear classifiers through minimizing VC 


尾 


> 


dimension bound [Cl]// Proc of International Symposium on Neural 
Networks. Berlin: Springer, 2005: 900-905. 

[3] Wang Xiaolong, Shrivastava A, Gupta A. A-Fast-RCNN: hard positive 
generation via adversary for object detection [Cl]// Proc of IEEE 
Conference on Computer Vision and Pattern Recognition.2017: 
3039-3048. 

[4] Chen Xinlei, Gupta A. An implementation of Faster RCNN with study 


非 数值 化 特征 的 条 件 概率 区 域 划 分 (CZT) 编 码 方 法 


ChinaXiv 合 作 期 刊 
第 37 卷 第 5 期 


for region sampling[EB/OL]. (2017-02-08) [2018-10-15]. https://arxiv. 
org/abs/1702. 02138. 

[5] Sun Xudong, Wu Pengcheng, Hoi S C H. Face detection using deep 
learning: an improved faster RCNN approach[EB/OL]. (2017-01-28) 
[2018-10-15]. https://arxiv. org/abs/1701. 08289. 

[6] Lai Siwei, Liu Kang, Xu Liheng, et al. How to generate a good word 
embedding [J]. IEEE Intelligent Systems, 2016, 31 (6): 5-14. 

[7] Upadhyay S, Faruqui M, Dyer C, et al. Cross-lingual models of word 
embeddings: an empirical comparison [C]// Proc of the 54th Annual 
Meeting of the Association for Computational Linguistics. 2016: 
1661-1670. 

[8] Balaji K, Nikaash P, Raghavender G. Learning vector-space 
representations of items for recommendations using word embedding 
models [M]/ Procedia Computer Science. 2016: 2205-2210. 

[9] Lauren P, Qu G, Yang Jucheng, et al. Generating word embeddings 
from an extreme learning machine for sentiment analysis and sequence 
labeling tasks [J]. Cognitive Computation, 2018 (3): 1-14. 

[10] Ledig C, Theis L, Huszar F, et al. Photo-realistic single image 
super-resolution using a generative adversarial network [Cl]// Proc of 
IEEE Conference on Computer Vision and Pattern Recognition. 2016: 
105-114. 

[11] Trishul C, Yutaka S, Johnson A, et al. Project adam: building an 
efficient and scalable deep learning training System [Cl]// Proc of Usenix 
Conference on Operating Systems Design and Implementation. [S.1.]: 
USENIX Association, 2016: 571-582. 

[12] Bishop C M. Pattern recognition and machine learning (information 
Science and statistics) [M]. New York: Springer-Verlag, 2006 (4): 499. 

[13] Titanic Dataset. Kaggle[EB/OL]. https://www. kaggle. com/c/titanic/. 

[14] Xavier G, Antoine B, Bengio Y. Deep sparse rectifier neural networks 
[C]/ Proc of International Conference on Artificial Intelligence and 


Statistics. 2011: 315-323. 


